빅데이터분석기사 22년 4회차

필기


1. 다음 중 HDFS에 대한 설명으로 맞는 것은?
  •  Replication의 횟수는 내부에서 결정되며 사용자가 바꾸지 못한다.
  •  ETL, NTFA가 상위 파일 시스템이다.
  •  GFS와 동일한 소스코드를 사용한다.
  •  네임노드는 삭제 데이터가 저장된 데이터노드를 관리한다.

2. 다음 중 분산 파일 시스템에 대한 설명으로 맞는 것은?
  •  하나의 컴퓨팅 자원을 다수의 시스템에 연결하여 병목 현상의 문제가 있다.
  •  비관계형 DB와 같은 의미를 지니며 대표적으로 NoSQL이 있다.
  •  여러 컴퓨터를 하나의 서버 환경처럼 저장하는 것을 말한다.
  •  대규모의 데이터가 아닌 양질의 소규모 데이터를 관리하기 위해 고안되었다.

3. 다음 중 인공지능 학습에 대한 설명으로 틀린 것은?
  •  지도학습이란 데이터의 정답지가 주어진 상태로 학습하는 것을 말한다.
  •  강화학습이란 특정 조건에서 최적의 행동을 선택하도록 하는 방법이다.
  •  강인공지능이란 다양한 분야의 어떤 문제를 실제로 사고하고 학습하여 해결할 수 있는 컴퓨터 기반의 인공지능이다.
  •  훌륭한 알고리즘을 보유하였다면 학습을 생략해도 된다.

4. 다음 중 DIKW 피라미드 요소 중 지혜(Wisdom)에 해당하는 예시로 맞는 것은?
  •  A 마트의 상품은 B 마트보다 저렴할 것이다.
  •  A 마트의 과일이 더 저렴하다.
  •  A 마트의 과일은 100원, B 마트의 과일은 200원이다.
  •  과일을 구매하려면 A 마트가 더 좋다.

5. 다음 중 '분석 로드맵 설정'시 우선순위로 고려해야 할 항목이 아닌 것은?
  •  비즈니스 성과 및 ROI
  •  시급성
  •  분석 데이터 적용
  •  전략적 중요도

6. 다음 중 빅데이터 분석 기획 절차로 맞는 것은?
ㄱ. 비지니스 이해 및 범위 설정
ㄴ. 프로젝트 위험 계획 수립
ㄷ. 프로젝트 정의
ㄹ. 프로젝트 수행 계획 수립
  •  ㄷ>ㄱ>ㄴ>ㄹ
  •  ㄷ>ㄱ>ㄹ>ㄴ
  •  ㄱ>ㄷ>ㄹ>ㄴ
  •  ㄱ>ㄷ>ㄴ>ㄹ

7. 다음 중 개인정보 비식별화에 대한 설명으로 틀린 것은?
  •  비식별화는 개인을 알아볼 수 없도록 하는 조치를 말한다.
  •  비식별 정보는 제3자 제공이 가능하며, 원칙적으로 불특정 다수에 대한 공개가 가능하다.
  •  비식별 정보는 비식별 조치 후에도 모니터링과 기술적 보호조치를 수행해야 한다.
  •  비식별 정보는 사전에 개인정보 해당 여부에 대하여 검토하고, 개인정보가 아닌 것은 활용 가능하도록 한다.

8. 다음 중 개인정보 비식별화 기술에 대한 설명으로 틀린 것은?
  •  총계처리: 데이터의 총합 값으로 처리하여 개별 데이터의 값이 보이지 않도록 하는 기술
  •  데이터 마스킹: 개인 식별에 중요한 데이터 값을 삭제하는 것
  •  가명처리: 개인 식별에 중요한 데이터를 식별할 수 없는 다른 값으로 변경
  •  범주화: 데이터의 값을 범주의 값으로 변환하여 값을 변경하는 기술

9. 다음 중 가트너가 정의한 빅데이터 처리 플랫폼 특징 중 3V에 정의된 것으로 틀린 것은?
  •  가치(Value)
  •  규모(Volume)
  •  속도(Velocity)
  •  다양성(Variety)

10. 다음 중 1제타바이트에 1byte의 아스키 코드를 넣으면 가능한 수용 크기로 맞는 것은?
  •  2^10 byte
  •  2^30 byte
  •  2^50 byte
  •  2^70 byte

11. 다음 중 아래에서 설명하는 개념으로 맞는 것은?
대표적인 빅데이터 분산처리 엔진으로, 하둡의 단점을 보완하기 위해 인메모리(In-Memory)기반의 데이터 처리 오픈소스 플랫폼
  •  맵 리듀스(Map Reduce)
  •  스파크(Spark)
  •  하이브(Hive)
  •  피그(Pig)

12. 다음 중 데이터 모델링 과정에서 수행하는 업무가 아닌 것은?
  •  데이터 세트 분할
  •  데이터 모형 모델링
  •  프로젝트 성과 분석 및 평가 보고
  •  모델 적용 및 운영 방안 수립

13. 다음 중 정형 데이터와 비정형 데이터에 대한 설명으로 맞는 것은?
  •  동영상, 오디오 데이터는 정형 데이터에 속한다
  •  정형과 반정형 성질을 둘 다 갖고 있는 것을 비정형 데이터라고 한다.
  •  형태소는 정형 데이터를 분석하기 위한 단위이다.
  •  XML은 반정형 데이터이다.

14. 다음 중 고품질 데이터의 특성이 아닌 것은?
  •  정확성(Accuracy)
  •  직시성(Timeliness)
  •  불편의성(Un-completeness)
  •  일관성(Consistency)

15. 다음 중 아래에서 설명하는 개념으로 맞는 것은?
시스템의 전방에 위치하여 클라이언트로부터 다양한 서비스를 처리하고, 백-엔드 서비스 간의 통신을 전달하는 미들웨어
  •  API 게이트웨이
  •  데이터베이스
  •  PaaS
  •  ESB

16. 다음 중 데이터 3법에 포함되는 법으로 틀린 것은?
  •  개인정보보호법
  •  정보통신산업진흥법
  •  정보통신망 이용촉진 및 정보보호 등에 관한 법률
  •  신용정보의 이용 및 보호에 관한 법률

17. 다음 중 공공 데이터 포털에서 제공하는 파일의 형식으로 틀린 것은?
  •  XML
  •  SQL
  •  JSON
  •  CSV

18. 다음 중 빅데이터 저장소와 관련한 개념으로 틀린 것은?
  •  Data Lake
  •  Data Warehouse
  •  Data Mining
  •  Data Dam

19. 다음 중 아래에서 설명하는 개념으로 맞는 것은?
데이터에 노이즈를 추가하여 개인정보보호와 데이터 분석을 모두 진행할 수 있는 기법
  •  k-익명성
  •  개인정보 차등보호
  •  가명화
  •  l-다양성

20. 다음 중 빅데이터 저장 기술로 맞는 것은?
  •  맵리듀스
  •  직렬화
  •  가시화
  •  NoSQL

21. 다음 중 시공간 데이터로 틀린 것은?
  •  GIS 데이터
  •  코로플로스 맵
  •  패널 데이터
  •  격자 데이터

22. 다음 중 기초 통계량의 대푯값과 관련한 설명으로 틀린 것은?
  •  평균은 중앙값보다 이상값에 영향을 더 적게 받는다.
  •  Q3-Q1을 사분위수 범위라고 한다.
  •  변동률 등은 기하 평균으로 구한다.
  •  변동계수는 자료의 단위와 관련이 있다.

23. 다음 중 이상값을 찾는 방법에 대한 설명으로 틀린 것은?
  •  상자 그래프의 산점도 등에서 멀리 떨어진 값을 찾는다.
  •  표준정규분포에서 표준편차가 3 이상인 값을 찾는다.
  •  도메인 지식에서 이론적이나 물리적으로 맞지 않는 값을 찾는다.
  •  가설 검정의 노이즈 값을 찾는다.

24. 다음 중 주성분 분석에 대한 설명으로 틀린 것은?
  •  기존 변수들을 선형 결합하여 새로운 변수를 만든다.
  •  주성분들이 설명하는 분산이 최대한 커지도록 한다.
  •  데이터가 이산형, 연속형인 경우에 사용한다.
  •  주성분 분석의 결과와 해석을 직관적으로 이해할 수 있다.

25. 다음 중 상관관계에 대한 설명으로 틀린 것은?
  •  상관계수 값의 범위는 -1부터 1 사이에 있다.
  •  상관계수의 절댓값이 0에 가까울수록 두 변수 간의 상관성이 적다.
  •  상관계수는 결정계수 값의 제곱을 의미한다.
  •  두 변수의 관계를 산점도로 알 수 있다.

26. 다음 중 아래에서 설명하는 내용으로 맞는 것은?
정규분포를 따르고 평균이 150, 분산이 16인 자료에 대하여 모든 자료에 (-150)/4의 스케일링을 적용하면 자료의 분포는 어떤 분포를 따르는가?
  •  N(150,16)
  •  N(0,1)
  •  N(0,1/10)
  •  N(0,1/100)

27. 다음 중 박스 플롯에서 3Q보다 항상 작은 값을 갖는 것은?
  •  IQR 사분위수 범위
  •  중앙값
  •  80퍼센트
  •  최댓값

28. 다음 중 비정형 텍스트 데이터 전처리 기법으로 틀린 것은?
  •  Tokenizing
  •  Crawling
  •  pos tagging
  •  stemming

29. 다음 중 아래에서 설명하는 개념으로 맞는 것은?
항목집합의 지지도를 산출하여 발생빈도와 최소지지도를 기반으로 거래 연관성을 밝히는 알고리즘
  •  Apriori
  •  인공신경망
  •  의사결정나무
  •  어간 추출

30. 다음 중 빅데이터 탐색에 대한 설명으로 틀린 것은?
  •  빅데이터 전체 분포를 대략적으로 검토하는 과정이다.
  •  데이터 분석 과정에서 최종 분석 결과를 도출한다.
  •  데이터 탐색 시 잠재적 문제를 발견하는 과정이다.
  •  데이터 탐색 시 데이터를 기반으로 패턴을 찾는 과정이다.

31. 다음 중 표준화와 자료 분포에 관한 설명으로 맞는 것은?
  •  표준화는 각 요소에서 평균을 밴 값에 분산을 나눈다.
  •  표준화된 자료의 최댓값은 1이다.
  •  표준화된 자료의 표준편차는 0이다.
  •  정규분포인 자료를 표준화 하면 표준정규분포를 따른다.

32. 다음 중 단위가 다른 두 데이터를 비교할 때, 단위에 영향을 받지 않는 변동성 척도 개념으로 맞는 것은?
  •  범위(Range)
  •  사분위범위(IQR)
  •  변동계수(CV)
  •  표준편차(Standard Deviation)

33. 다음 중 초기하 분포에 대한 설명으로 틀린 것은?
  •  만약 복원 추출을 하는 경우 이항분포를 사용해야 한다.
  •  비복원 추출로 인해 각 시행의 성공확률은 일정하지 않다.
  •  각 시행의 성공 확률은 상호 독립적이다.
  •  자료는 이산형 확률분포를 따른다.

34. 다음 중 텍스트 마이닝에서 문장을 2개 이상의 단어로 분리하는 방법으로 맞는 것은?
  •  토픽 모델링
  •  N-gram
  •  TF-IDF
  •  Dendrogram

35. 다음 중 선형회귀 모형의 가정에 대한 특성으로 틀린 것은?
  •  독립성
  •  정규성
  •  등분산성
  •  수렴성

36. 다음 중 아래에서 설명하는 내용의 빈칸에 들어갈 개념으로 맞는 것은?
비지도학습은 라벨링이 ( A ), 예시로는 ( B )이다.
비지도 학습이란 타깃 변수의 라벨링이 ( A ) 모형을 의미하며, 대표적인 모형 예시로는 ( B ) 가 있다.
  •  A: 안된, B: 로지스틱 회귀 모형
  •  A: 된, B: 로지스틱 회귀 모형
  •  A: 안된, B: 군집 모형
  •  A: 된, B: 군집 모형

37. 다음 중 인공신경망의 특징으로 틀린 것은?
  •  다른 분석 모형에 비해 해석이 쉽다.
  •  복잡한 비선형 문제에 적용 가능하다.
  •  Tanh, ReLU 등의 활성화 함수로 기울기 소실문제를 해결하였다.
  •  CNN, RNN 등 딥러닝 모형의 기초 토대가 되었다.

38. 다음 중 활성화 함수의 계단 함수가 수행하지 못하는 논리 문제로 옳은 것은?
  •  AND
  •  OR
  •  NOR
  •  XOR

39. 다음 중 오토 인코더(Auto Encoder)모형에 대한 설명으로 틀린 것은?
  •  신경망을 활용한 비지도 학습 기법이다.
  •  입력 특성 간 상관관계를 학습하여 출력을 재구성(Reconstruction)한다.
  •  입력층의 뉴런 수는 은닉층의 뉴런 수보다 항상 작다.
  •  인코드(Encode) 입력 수와 디코드(Decode)출력 수는 동일하다.

40. 다음 중 의사결정나무에 대한 설명으로 틀린 것은?
  •  자식 노드의 가지 수가 하나만 남을 때까지 계속하여 학습을 진행한다.
  •  지니 지수, 엔트로피 지수 등을 통해 분리규칙을 설정한다.
  •  두 범주 간의 차이가 없다고 판단되면 분리를 멈춘다.
  •  과적합을 방지하기 위해 가지치기(Pruning) 작업을 수행한다.

41. 다음 중 범주형 타깃 변수에 대한 분류 모형으로 틀린 것은?
  •  인공신경망
  •  선형회귀분석
  •  서포트벡터
  •  의사결정나무

42. 다음 중 아래에 설명하는 시계열의 특성 개념으로 옳은 것은?
중장기적인 특성을 가지며, 빈번한 발생 빈도 없이 특정 주기로 반복적인 패턴을 보이는 특성
  •  추세
  •  순환
  •  계절
  •  불규칙

43. 다음 중 선형회귀 모형에서 잔차의 특성으로 틀린 것은?
  •  잔차의 선형성
  •  잔차의 독립성
  •  잔차의 등분산성
  •  잔차의 정규성

44. 다음 중 재현율(Recall)에 대한 공식으로 옳은 것은?
  •  FP/(TP+FP)
  •  FP/(TP+FN)
  •  TP/(TP+FP)
  •  TP/(TP+FN)

45. 다음 중 불균형 데이터를 평가하기 위한 지표로 틀린 것은?
  •  민감도
  •  정확도
  •  오분류율
  •  ROC곡선

46. 기존 모형을 일반화 모형으로 확장하기 위해 연결함수가 필요하다. 다음 중 자연로그 함수를 연결함수로 사용하는 자료 분포로 맞는 것은?
  •  정규분포
  •  이항분포
  •  감마분포
  •  포아송분포

47. 다음 중 분석 모형 강화 및 융합 기법에 대한 설명으로 틀린 것은?
  •  앙상블이란 여러 모형의 결과를 종합하여 좋은 성능을 내는 모형이다
  •  배깅이란 부트스트랩 기반의 자료 집단을 생성하는 샘플링 기법이다.
  •  랜덤 포레스트는 의사결정나무 모형에 부스팅을 적용하는 알고리즘으로 좋은 성능을 보인다.
  •  부스팅은 하나의 약한 학습기를 가중치개선을 통해 점차 강력한 분류기로 만들어 가는 기법이다.

48. 다음 중 윌콕슨(Wilcoxon) 검정 모형에 대한 설명으로 틀린 것은?
  •  윌콕슨 부호순위 검정은 특정 집단의 사전/사후 대응 비교를 위한 검정이다.
  •  윌콕슨 순위합 검정은 서로 독립적인 두 집단의 처리효과 비교를 위한 검정이다.
  •  윌콕슨 검정 모형은 중위수 비교를 통해 이루어진다.
  •  윌콕슨 부호 순위 검정은 모집단의 분포가 대칭일 때 검정 가능하다.

49. 다음 중 배깅기법에 대한 설명으로 맞는 것은?
  •  편향이 낮은 과소적합 모델에 대하여 규제 완화를 통해 성능을 높이는 기법
  •  편향이 높은 과대적합 모델을 일반화 및 정규화 하는 기법
  •  부트스트랩 기반의 표본 자료를 생성하고 각 부트스트랩 자료를 결합하여 최종 예측 모형을 산출하는 기법
  •  가중치를 연속적으로 업데이트하여 약 분류기를 강 분류기로 만드는 기법

50. 다음 중 과대적합을 방지하기 위한 기법으로 틀린 것은?
  •  Regularization
  •  Gradient Vanishing
  •  Drop Out
  •  Max Pooling

51. 다음 중 시공간 시각화 기법으로 옳은 것은?
  •  히스토그램
  •  체르노프 페이스
  •  카토그램
  •  평행 좌표계

52. 다음 중 초매개변수의 최적화 기법으로 틀린 것은?
  •  베이지안 최적화
  •  그리드 탐색
  •  랜덤 탐색
  •  경사 하강법

53. 다음 중 아래 조건 하에 분류 모형 평가지표 산출에 대한 설명으로 옳은 것은?
y=0 혹은 y=1 값을 가지는 이진 분류 분석에서 실제 y=1(True)의 값이 y=0(False)값의 2배일 때 민감도, 이도, 정확도에 대한 설명으로 옳은 것을 고르시오.
  •  민감도와 특이도 둘 다 1일때 정확도는 1이다.
  •  특이도가 1일 때 정확도는 1/2이다.
  •  민감도가 1/2일 때 정확도는 1/2이다.
  •  민감도와 특이도가 같을 때 정확도도 특이도와 같다.

54. 다음 중 홀드아웃기법을 통해 나눠진 데이터 종류로 틀린 것은?
  •  테스트 데이터
  •  검증 데이터
  •  학습 데이터
  •  증강 데이터

55. 다음 중 시각화 기법 종류에서 비교 시각화 기법이 아닌 것은?
  •  막대 그래프
  •  레이더 차트
  •  히트맵
  •  산점도

56. 포아송분포가 맞는지 적합도 검정을 수행할 시, 보기 중 맞는 설명은?
ㄱ. 검정을 위해 하루에 몇 회인지 평균을 구해야 한다.
ㄴ. 카이제곱 값이 클수록 귀무가설을 기각한다.
ㄷ. 귀무가설은 관측값이 포아송분포를 따른다.
  •  ㄱ, ㄴ
  •  ㄱ, ㄷ
  •  ㄴ, ㄷ
  •  ㄱ, ㄴ, ㄷ

57. 분류 모형 평가에서 부트스트랩을 사용하여 훈련용 데이터 선정을 충분히 한다고 가정할 때, 다음 중 전체 관측치 중 훈련용 데이터 세트 비율로 가장 옳은 것은?
  •  60.0%
  •  82.5%
  •  40.5%
  •  30.0%

58. 다음 중 아래 설명에서 나타내고 있는 경사하강법(Gradient Descent)기법으로 옳은 것은?
모멘텀 방식과 AdaGrad를 결합한 방식으로, 가속도와 학습률 조정을 동시에 적용한 알고리즘이다.
  •  RMSProp
  •  BGD
  •  Adam
  •  SGD

59. 다음 중 효과적인 인포그래픽의 조건으로 틀린 것은?
  •  메시지를 구체적, 실용적으로 전달한다.
  •  그래픽 안에 최대한 많은 정보를 담는다.
  •  스토리를 적절히 담아내어 설득력 있는 정보를 구성한다.
  •  객관적 정보와 더불어 표현하고자 하는 바를 시각적으로 활용하여 전달한다.

60. 다음 중 1:n-1(검증:훈련) 비유로 수행되는 k-fold에 대한 설명 중 틀린 것은?
  •  데이터셋을 검증용:훈련용 비율로 1:k-1 의 비율로 나눈다.
  •  k값은 항상 3이상이어야 한다.
  •  연산에 시간이 오래 소요되나 좋은 성능을 내는 장점이 있다.
  •  모든 데이터셋을 훈련과 검증에 활용할 수 있다.

61. 다음 중 히스토그램의 특징으로 틀린 것은?
  •  이산적, 연속적인 자료에 활용 가능하다.
  •  히스토그램은 시계열 자료를 표현하기에 적합하다.
  •  자료의 대략적 분포를 알 수 있다.
  •  누적 히스토그램은 누적 빈도함수의 개형과 유사하다.

62. 다음 중 아래 설명에 대한 개념으로 옳은 것은?
FN은 정답이 경우 (1, True)를 우리가 정답이 아닌 것으로(0, Negative)로 예측한다. 그렇다면 TP가 의미하는 것으로 옳은 것은?
  •  실제 1, 예측 1
  •  실제 0, 예측 1
  •  실제1, 예측 0
  •  실제 0, 예측 0

63. 다음 중 아래 순서는 빅데이터 모델링을 진행하는 순서이다. 빈칸에 들어갈 개념으로 옳은 것은?
문제정의 > 표준화 > (            ) > 일반화
  •  최적화
  •  정규화
  •  합리화
  •  확산화

64. 다음 중 분석 결과 활용 시나리오 적용을 해야 하는 이유로 틀린 것은?
  •  활용 가능 분야를 파악하기 위해
  •  활용 서비스 영역을 개발하기 위해
  •  가치사슬 모형을 통해 활용 효과를 탐색하기 위해
  •  작업관리를 효율적으로 하기 위해

65. 다음 중 분석모형 리모델링 및 활용 과정별 명칭과 그 내용에 대하여 틀린 것은?
  •  최적화 - 조건이나 가중치 변화 시 계수값 조정 및 제약조건 추가
  •  정규화 - 데이터 단위와 분포를 정규화
  •  데이터 마이닝 - 최신 데이터 적용 및 분석 모형 재조정
  •  시뮬레이션 - 최신 데이터 적용 및 변수 추가 방식으로 분석 모형 재조정

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
채점하기
hide
reset
타이머

모든 문제들의 저작권은 원저작권자에게 있습니다. 본 사이트는 웹상에 공개되어 있는 문제만 모아서 보여드립니다.
저작권 안내   데이터 보호 안내   제휴 문의

copyright 2025 뉴비티::새로운 CBT 시스템 - newbt.kr